통계적 방법 (문단 편집)

== 기술통계와 추론통계 ==
통계학에는 크게 두 가지가 있으며, [[F-분포]]를 제시했던 통계학자이자 [[실험설계]]에 공헌했던 방법론 연구자였던 로널드 피셔(Ronald Fisher)가 추론통계학의 기초 개념을 창안하면서 연구의 역사가 서로 갈라지게 되었다.

* '''[[기술통계학]]'''(descriptive statistics): 연구 대상의 전체 또는 일부를 통계하여, 그 대상이 갖고 있는 속성을 다루는 수치를 추출하고, 그 추출 결과를 도표와 그래프로 정리하는 통계학. 일부를 통계하는 경우에는 아래 추론통계학의 작업을 위한 사전 준비과정으로 활용된다.
 * '''[[추론통계학]]'''(inferential statistics): 자료의 일부만을 관찰한 결과를 토대로 불확실한 사실(전체 관찰 결과, 또는 오지 않은 미래)을 추론 및 예측하는 통계학. 경제학계에서는 통계적 추론(statistical inference)이라는 표현으로 정착되어 있다. 한자어로 더 축약할 경우 추계학(推計學)이라고도 한다.

기술통계학이나 추론통계학이나 쓰임새 자체는 분야에 따라 다 다르다. 그러나 일반적으로 많은 통계학 강의들에서는 '''추론통계학에 상당한 방점을 찍고 있다.''' 추론을 해야할 만한 경우가 많고, 이론적인 정교함과 엄밀함도 높기 때문이다.  [[경제통계학]], 인구학(demography), [[사회학]], [[사회조사]] 같은 분야에서는 기술통계학이, [[계량경제학]], [[경영학]]이나 [[행정학]], [[심리학]] 등의 분야에서는 추론통계학이 쓰인다. 특히나 [[인구주택총조사]]와 같은 [[센서스]](census)는 기술통계학의 꽃이라 할 수 있으며, [[심리학]] 등의 분야에서 고작 십수명 앉혀놓고 연구한 결과를 일반화시키는 기예를 선보이는 것은 통계적 추론의 첨단을 달리는 기법이라고 할 수 있다.

통계적 방법을 기술통계학과 추론통계학으로 굳이 나누는 작업부터 시작해야 하는 이유는, 이처럼 통계적 방법에서 둘 다 쓰임새 자체는 많을지라도, 뭔가 배울 만한 건덕지(?)는 추론통계학이 훨씬 더 많기 때문이다. 그리고 추론통계학은 추론을 위한 고유의 논리가 있으며, 그 논리에 맞게 '''각종 용어들과 기호들이 구분되어서 쓰이고 있다.''' 기술통계학에서는 단순히 연구자가 관심을 갖는 대상 집단과 그 집단의 수치적 속성만을 보여주면 그만이다. 하지만 추론통계학에서는 좀 더 복잡해진다. 여기서는 자료의 출처가 되는 대상 집단을 '''표본'''(sample)이라고 하며, 표본이 갖는 수치적 속성을 '''통계량'''(statistic)[* [[통계학]](statistics)이라는 단어와의 차이점에 유의. 마지막에 s가 빠져 있다.]이라고 한다. 반면, 연구자가 정말로 알고 싶었던 대상, 즉 본래 관심이 있었던 '진짜' 대상 집단은 '''모집단'''(population)이라고 달리 부르며, 모집단이 갖는 수치적 속성을 '''모수'''(parameter)라고 한다. 통계량은 수식에서 [[알파벳]]으로 표기되는 반면, 모수는 수식에서 [[그리스 문자]]로 표기된다는 차이가 있다.

물론 '추론' 을 내세우며 입을 터는(?) 추론통계학보다는, 사실을 있는 그대로 담백하게 '기술' 하는 기술통계학이 더 이상적이다. 기술통계학은 표본의 표집 과정에서 발생하는 '''표집오차'''(sampling error)의 가능성이 0이기 때문이다.[* 물론 이론적으로는 여기에 대응되는 비표집오차(non-sampling error) 같은 개념도 있다. 이건 전수조사를 할 때 발생하는 통계 외적인 문제(ex. 조사원 숙련도 등)로 발생하는 오차이다. 당연히 통계학적인 의미는 없기 때문에, 그리고 표집오차의 위험성에 대자면 비교 불가능할 만큼 사소하기 때문에 대체로 무시할 뿐이다.] 그러나 연구대상이 너무 거대해서 전수조사가 불가능한 경우가 있고, 전수조사를 하기에는 시간과 예산이 모자라는(…) 경우가 있으며, 연구의 특성상 (ex. 내구성 검사, 수명 검사 등) 전수조사를 하면 안 되는 경우가 있다. 결국 추론통계학은 이상과 현실의 타협점이다. '''감당할 수 있을 만큼 오차를 무릅쓰면서, 충분히 높은 정확성을 유지하여 전체 대상을 예측하고, 그러면서 자신이 유발시키는 오차를 정확히 명시하는 것이다.''' 방법론적인 복잡성은 추론통계학이 한참 더 심할 수밖에 없다.

여기서 오해하면 안 될 것이 있다. '''연구자는 그저 모집단의 모수가 궁금할 뿐이지, 표본의 통계량에는 사실 관심이 없다. 단지 그 모수를 직접 얻을 수 없기에 [[씁 어쩔 수 없지|통계량만을 가지고 가늠해 볼 뿐이다.]]''' 연구자의 손에 당장 들려 있는 것은 어디까지나 아득바득 긁어모아 얻어낸 한 줌의 통계량이지, 모수가 아니다. 이제 연구자는 이 통계량이 모수에 대해 감을 잡는 데 '''그럭저럭 도움이 된다고 '믿어야' 한다.''' 다시 말해, 통계량이 무조건 모수와 정확히 같다고는 그 누구도 확신하지 못한다. 결국 표본을 한없이 늘릴 자신까지는 없는 연구자는 어느 정도의 리스크를 안게 된다. 그리고 자신이 혓바닥을 잘못 놀렸을 가능성(…)만이라도 감당 가능한 수준으로 낮추는 데에 초점을 맞춘다. 결과적으로 통계량은 '''정확해야 하고'''(모수에 최대한 가까워야 하고), 표본은 '''효율적이어야 한다'''(정확성을 담보하되 최대한으로 작아야 한다). 이것이 바로 추론통계학만이 직면하게 되는 고유의 어려움이다. 통계적 추론 외적으로 [[표본조사]](sampling)의 엄격한 수행이 연구자들에게 이슈가 되는 것도 밀접한 관련이 있다.
[[파일:statistic_diagram01.svg |width=500]]

저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,
기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.
이 동의는 철회할 수 없습니다.

통계적 방법 (문단 편집)

캡챠